iT邦幫忙

2021 iThome 鐵人賽

DAY 11
0
AI & Data

30Day 從一介凡人羽化成資料科學初學者系列 第 11

Day11- pandas(6)DataFrame有效率的檢視資料方法

  • 分享至 

  • xImage
  •  

往往我們在拿到一份資料時,數據都是很大很恐怖的
而且我們並無足夠的時間將每個數值好好得看過一遍
pandas提供了許多方法穰我們能有效率的做資料探勘
我會使用Kaggle Titanic的資料來做操作示範
先不要在意各這資料集裡各欄位代表什麼意思
我只是要示範檢視資料的方法

先讀取資料
https://ithelp.ithome.com.tw/upload/images/20210826/20140416CcBhbl2889.png

DataFrame.head方法
顯示前五筆資料,可在後方括號填入數字,來改變想顯示的資料個數,預設是5

data.head()

https://ithelp.ithome.com.tw/upload/images/20210826/20140416YxbRR0wheF.png

DataFrame.info方法
可獲得各欄位名稱、有無空值、各欄位資料型態的資訊
https://ithelp.ithome.com.tw/upload/images/20210826/201404166nHP2AIAD3.png

DataFrame.describe方法
count資料個數、mean、std、min、max、第一四分位數、第二四分位數(也就是中位數)、第三四分位數
https://ithelp.ithome.com.tw/upload/images/20210826/20140416ZRHCT17kFp.png

DataFrame.value_counts方法
計算各值的數量 我選擇此資料集的Sex欄位做示範
值為male的個數為577、值為female的個數為314
表示男生577人 女生314人
https://ithelp.ithome.com.tw/upload/images/20210826/20140416Eackl0gxUH.png

unique方法
輸出欄位不重複值
https://ithelp.ithome.com.tw/upload/images/20210826/20140416fU7eMfYcNG.png
表示Pclass此欄位只有三種值 1、2、3

送上colab連結,可自行在上面多做點練習更加熟悉pandas
https://colab.research.google.com/drive/1aDfwgh0P6tC07uy3usfzsFzUv2f4wZsy?usp=sharing

Titanic資料下載
https://www.kaggle.com/c/titanic/overview


上一篇
Day10- pandas(5)DataFrame匯總統計值min、max、mean等
下一篇
Day12- pandas(7)DataFrame遺失值處理
系列文
30Day 從一介凡人羽化成資料科學初學者30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言